• Aucun résultat trouvé

activités d’introduction de la notion de fonction de densité

5.2 Analyse des activités d’introduction de la no- no-tion de foncno-tion de densité dans les manuelsno-tion de foncno-tion de densité dans les manuels

5.2.3 Analyse a priori des activités introductives utilisant la notion d’histogrammela notion d’histogramme

Dans cette section, nous allons présenter nos analyses a priori de quatre des cinq activités d’introduction qui utilisent la notion d’histogramme pour introduire la notion de fonction de densité.

a) D’un échantillon à une population La situation proposée

L’activité 2 p. 377 du manuelHyperbole se trouve en figure 5.7.

Figure 5.7 – activité 2 p. 377 (Hyperbole)

Elle a pour titre : «La notion de densité d’une loi de probabilité ». L’objectif de l’activité, écrit explicitement, est d’approcher la définition de la loi de probabilité d’une variable (certainement variable aléatoire) continue.

Le problème est contextualisé : il s’agit de la vente d’un stock de vêtements dont la taille convient à des hommes adultes mesurant entre 1,70 m et 1,77 m. L’objectif du problème (dans le cadre grisé) est de déterminer avec quelle probabilité

le commerçant pourra satisfaire un client qui entre au hasard dans son magasin. L’expérience aléatoire en question est l’entrée d’un client au hasard dans le magasin du commerçant.

On peut cependant se demander à quoi se rapporte l’expression «au hasard » : est-ce le choix du magasin par le client qui revient au hasard ou le choix du client qui entre dans le magasin qui est fait au hasard ? De plus, rien n’empêche le fait qu’une femme entre dans le magasin. Faut-il, dans ce cas, faire l’hypothèse qu’elle rentre pour acheter un vêtement à un homme et que l’on doit associer cette femme à l’homme pour lequel elle fait le potentiel achat ? Le fait de modéliser par une loi uniforme sur les hommes pour la loi du client entrant au hasard n’est pas si clair que cela, cependant c’est ce qui semble attendu ici.

Ensuite, à quoi correspond « satisfaire un client » ? Est-ce que cela revient vrai-ment au seul critère de la correspondance de la taille ? L’esthétique ne compte-t-elle pas ? De plus, si le client entre par hasard dans le magasin, il peut ne pas vouloir de vêtements.

Il pourrait y avoir beaucoup de commentaires à faire sur cette situation qui est déjà modélisée sans en expliciter les hypothèses faites. Le contexte choisi est très artificiel.

Après avoir posé le problème, l’énoncé propose un histogramme obtenu pour un échantillon de 50 000 hommes adultes. Il n’est pas précisé dans le texte qu’il s’agit de l’histogramme des tailles, mais nous pouvons trouver l’information sur l’axe des abscisses du graphique. L’histogramme fourni est sensiblement identique à celle du document Ressources (MENJVA & DGESCO, 2012) et du document d’accompagnement de 2002 (MJENR, 2002), qui avait pour objectif d’introduire la loi normale.

La présence du mot pourcentage sur l’axe des ordonnées peut générer des confu-sions, il faut bien comprendre ici qu’il ne s’agit que d’une écriture de nombre : 1% = 0,01. Cependant, « pourcentage » semble être le nom de l’axe et donc laisse penser que cet axe représente la fréquence, ce qui n’est pas rigoureusement le cas. Dans un histogramme, l’axe des ordonnées correspond à la densité de fréquence (Roditi, 2009). Ici l’amplitude des classes étant de 1, cela ne pose pas de problème d’assimiler fréquence et densité (vu qu’elles sont égales), cependant cela devient pro-blématique dans les autres cas. Nous reviendrons plus en détail sur l’histogramme dans la section 5.2.5.

Il est, de toute façon, rappelé dans l’énoncé que la fréquence d’une classe est don-née par l’aire du rectangle de l’histogramme correspondant, ce qui permet d’enlever les doutes possibles. Cependant, pour les élèves, cela laisse quand même transpa-raître des ambiguïtés. L’histogramme est une notion faisant partie des connaissances anciennes, au programme des classes de la cinquième à la seconde. Cependant, le rappel montre que les auteurs des manuels ne semblent pas sûrs de pouvoir compter sur les connaissances des élèves sur cette notion.

À moins que les données n’aient été tirées d’une enquête INSEE (ce qui ne semble pas être le cas car aucune source n’est indiquée), il semblerait que l’histogramme ait été construit à partir de données simulées et non de données réelles. Il s’agit sans doute d’un problème « fabriqué » : on construit nos données (que l’on fait passer

pour des données « réelles ») pour pouvoir travailler dessus. Cela entraîne donc que le travail s’effectue avec un histogramme « idéal » : aucun trou n’est présent par exemple, ce qui est rare pour de vraies données. La modélisation est donc déjà faite implicitement. Il est probable qu’ici les données aient été calculées à partir d’une loi normale, cependant à aucun moment cela n’est indiqué.

Question 1

1. Estimer graphiquement la proportion des individus dont la taille est entre 1,70 m et 1,77 m.

Les valeurs de tailles considérées ici reprennent celles qui nous intéressent pour répondre à l’objectif du problème.

Démarche mathématique attendue

Estimer la proportion des individus dont la taille est entre 1,70 m et 1,77 m équivaut à estimer la fréquence de ces individus. Donc d’après le rappel de l’énoncé, il s’agit d’estimer l’aire des sept rectangles de base [i;i+ 1], aveci 170; 176. Vu le manque de précision dans les graduations, les résultats peuvent être légèrement différents d’un élève à l’autre. Il faut s’attendre à une marge d’erreurs d’environ 0,01. Des produits en croix peuvent être nécessaires pour déterminer les hauteurs des rectangles. De plus, il faut bien prendre en compte le fait que les graduations des ordonnées sont en pourcentage donc 4,25 correspond en fait à 0,0425. D’où :

p0,0425 + 0,045 + 0,048 + 0,0475 + 0,051 + 0,049 + 0,049

p0,332.

Analyse des activités attendues de l’élève

Cette question et sa résolution se situent dans le domaine de la statistique et plus particulièrement dans le sous-domaine de la statistique descriptive (SD). Le ré-férentiel théorique nécessaire pour la résolution est la connaissance de l’histogramme et particulièrement le traitement à opérer au sein du registre histogramme. Cepen-dant, cette connaissance ne semble pas supposée disponible, c’est sans doute la raison pour laquelle on peut repérer la présence d’aides : avec le mot « graphiquement » qui appuie sur le fait que c’est l’histogramme qui va permettre de répondre à la question et ensuite comme nous l’avons précisé plus haut, le rappel donné en amont dans l’énoncé sur le lien entre fréquence et histogramme. Au niveau des activités attendues des élèves, il y a des adaptations à faire :

1. Faire une correspondance entre les mots proportion et fréquence.

2. Appliquer le rappel de l’énoncé en prenant en considération qu’il faut sommer les différentes fréquences et donc les différentes aires en question.

Les aires des rectangles (que nous nommerons aire 1) sont à estimer à l’aide du graphique donc le résultat est approché, surtout en raison du fait que les graduations sont peu précises. De plus, il est important ici de bien considérer les valeurs de

l’ordonnée comme écriture décimale. C’est la dimension sémiotique qui est à l’œuvre dans cette question. Même si la dimension discursive est mobilisée, elle n’est que très peu à la charge de l’élève, vu que les indications sont données dans l’énoncé.

Question 2

Au début de la question 2, la courbe rouge visible sur l’histogramme est intro-duite. Il est précisé : « On a tracé la courbe d’une fonction qui « épouse » l’histo-gramme et on admet que pour tout échantillon de grand effectif, on obtiendrait un histogramme proche de cette courbe ». On trouve ici l’idée de fluctuation d’échan-tillonnage à travers l’histogramme, cependant cela n’est pas plus détaillé.

Le tracé de la courbe est pris en charge par le manuel. Ce choix n’est absolument pas questionné. Il est écrit «la courbe d’une fonction », l’article indéfini laisse donc penser que cette courbe n’est pas unique mais rien ne précise pourquoi celle-ci a été choisie. On pourrait déjà se demander ce que signifie «épouse ». De plus, le choix de la fonction ne semble dépendre que de cette condition. Il n’y a, à ce moment-là, aucune référence au fait que l’aire sous la courbe doit être obligatoirement égale à 1.

Les auteurs du manuel font le choix d’un modèle, qu’ils imposent aux élèves. 2(a). Comment calculer à l’aide de cette fonction la probabilité de l’évène-ment (1,70T 1,77) ?

2(b). Quelle doit être l’aire sous la courbe def?

Nous avons renommé les sous-questions, 2(a) et 2(b). Avant tout, nous pouvons remarquer que la variable aléatoire T n’est pas définie. Il doit s’agir de la variable aléatoire correspondant à la taille du client entrant dans le magasin. La fonctionf

non plus n’est pas définie. On parle de l’aire sous la courbe de f. Il s’agit, on s’en doute, de la fonction représentée par la courbe rouge.

Démarche mathématique attendue

L’introduction de la question 2 permet de voir la courbe rouge comme une ap-proximation de l’histogramme mais aussi de n’importe quel histogramme associé à un autre échantillon. L’élève doit déterminer la méthode à utiliser en faisant une analogie entre l’histogramme et la courbe donnée (courbe de densité) et donc entre la fréquence et la probabilité. Il y a un passage de l’aire des rectangles de l’histo-gramme (que nous appellerons aire 1) à l’aire sous la courbe (que nous appellerons aire 2).

La réponse attendue est : l’aire sous la courbe entre 1,70 m et 1,77 m, ou elle peut être envisagée aussi dans le registre symbolique de l’intégrale c’est-à-dire sous la forme

1,77 1,70

f(x) dx, où f est la fonction représentée par la courbe rouge. Il n’est pas attendu ici de faire des calculs car nous ne disposons pas de l’expression de la fonction.

La sous-question 2 (b) questionne sur l’aire qui doit être sous la courbe de f. L’expression « doit être » peut être interprétée de plusieurs façons : comme une condition nécessaire (cependant, la fonction a été choisie), comme « est certaine-ment » au vu de ce que l’on a trouvé avant, ou « est » mais on ne sait alors pas le degré de généralité de cette réponse.

Deux démarches sont alors envisageables. Il est possible de faire à nouveau une analogie entre fréquence et probabilité et donc aire sous la courbe. Ce qui implique que l’aire doit valoir 1. Ou, avec le même raisonnement qu’à la question précédente, l’aire sous la courbe de f (ce qui sous-entend sur son ensemble de définition) cor-respond à la probabilité que la variable aléatoireT appartiennent à tout l’ensemble de définition et donc nécessairement elle doit valoir 1.

Analyse des activités attendues de l’élève

Dans toute la question 2, il s’agit pour l’élève d’une première rencontre avec la fonction de densité et donc avec ce type de questions. Il doit donc lui-même trouver les analogies entre fréquence et probabilité.

La sous-question 2(a) se situe dans le sous-domaine des probabilités à densité (PaD), mais il est attendu un basculement du sous-domaine de la statistique des-criptive (SD) à celui des probabilités à densité (PaD), pour arriver au sous-domaine du calcul intégral (CI), avec l’aire ou l’intégrale.

Il y a un fort appui sur la visualisation, notamment pour faire l’analogie fré-quence/probabilité. Le référentiel théorique de la définition de l’intégrale d’une fonc-tion continue et positive en tant qu’aire sous la courbe doit être disponible pour que l’élève donne la réponse dans le registre symbolique de l’intégrale.

Nous pouvons remarquer que l’activité s’arrête ici. Il n’y a aucun retour sur l’objectif du problème qui était de déterminer une probabilité. Nous pourrions même dire pour être précis que le but était d’estimer une probabilité. La problématique appartient à la statistique inférentielle, mais toutes les questions que cela entraîne, comme le choix du modèle, ne sont pas examinées ici.

Conclusion sur les circulations dans cette activité

Les activités attendues de l’élève évoluent dans les différents ETM (SD, PaD et CI), essentiellement via la dimension sémiotique, principalement grâce à la visua-lisation (histogramme, courbe). Il y a une analogie qui est faite entre SD et PaD. La dimension discursive est peu présente : soit le référentiel théorique pourrait être justifié mais n’est pas nécessairement convoqué (nous pensons notamment à l’énoncé vulgarisé de la loi des grands nombres22), soit le référentiel théorique nécessaire est rappelé (sur l’histogramme). Les circulations en jeu sont représentées dans la figure 5.8. En rouge, sont entourées les dimensions prises en charge par les élèves (en poin-tillé rouge, si la dimension peut ne pas être mobilisée) et, en vert, celles prises en

22. La formulation proposée (dans le cas fini) dans le document d’accompagnement du pro-gramme de 2001 de la classe de première S (MEN, Direction de l’Enseignement scolaire, 2001), «en langage imagé », est la suivante : «Si on choisitn éléments d’un ensemble finiE selon une loi de probabilitéP, indépendamment les uns des autres, alors la distribution des fréquences est proche de la loi de probabilitéP lorsquenest grand ».

charge par le manuel.

Le tableau 5.3 présente plus en détail par le biais de quels objets mathématiques se font les circulations, avec comme point de départ l’histogramme. Enfin, nous avons essayé à travers la figure 5.9 de faire apparaître le cheminement et les connexions entre les trois sous-domaines.

Figure 5.8 – Circulations entre les trois sous-domaines (activité 2 p. 377, Hyperbole)

Figure 5.9 – Cheminement de l’activité 2 p. 377 (Hyperbole)

Quelles idées ressortent sur la fonction de densité ?

L’activité se conclut par : « On dit que f est la densité de P ». À nouveau, P n’est pas défini. Aucune justification de cette terminologie n’est donnée. À l’issue de cette activité, f est une fonction qui « épouse » l’histogramme. L’aire sous f doit valoir 1 (d’après la dernière question), mais nous ne savons pas bien le statut de cette propriété : Est-elle nécessaire ? Est-ce lié à ce cas particulier ? Sachant que la fonction a été donnée en amont, cette propriété s’ajoute sans avoir une place très claire. Mis à part la propriété de « proximité » avec (le haut de) l’histogramme, les autres ne ressortent pas vraiment. En revanche, il ressort qu’elle sert à calculer des probabilités.

Pour revenir sur la fonction f de l’énoncé, nous pouvons constater que l’en-semble de définition de cette fonction n’est pas explicité. Il l’en-semble borné au vu du graphique, mais c’est le cas aussi pour une loi normale (le graphique laisse croire que la fonction s’annule sur les bords ce qui n’est pas le cas). S’il s’agit d’une loi normale ici, la question 2 (b) pourrait susciter des débats, notamment sur le fait qu’un domaine infini puisse avoir une aire finie, mais aussi sur la pertinence d’une telle modélisation. Ce flou autour de l’ensemble de définition permet de contourner ces difficultés possibles. Ce qui peut paraître contradictoire ensuite, est que si l’on regarde le début du cours (p. 378), la définition d’une fonction de densité n’est don-née que dans les cas bornés ou bornés à gauche, donc cela exclut le cas de la loi normale par exemple.

b) D’une population à elle-même ! La situation proposée

Dans l’activité 1 p. 322 du manuelIndice (figure 5.10), intitulé « L’éco-point », l’objectif affiché est d’introduire la notion de loi à densité.

Figure 5.10 – Activité 1 p. 322 du manuel (Indice)

Comme dans le manuel Hyperbole, le choix est fait d’étudier des données qui se veulent « réelles » mais, cette fois-ci, l’on dispose des données de la population entière. Ici encore, les données sont en fait « fabriquées » pour l’activité et même sont le fruit de la simulation d’une variable aléatoire prédéfinie (par les auteurs).

Nous disposons ici d’un histogramme rassemblant les données de toute la popu-lation étudiée, qui est l’ensemble des habitants d’une région, concernant la distance qui sépare le domicile d’un habitant de l’éco-point le plus proche.

L’expérience aléatoire en question dans l’activité est le choix d’un habitant au hasard. On s’intéresse ensuite à la variable aléatoireX correspondant à la distance séparant la résidence de l’habitant choisi et l’éco-point le plus proche. Ici, il ne s’agit pas d’estimer la probabilité mais de déterminer la loi de probabilité associée à la variable aléatoire X, car nous disposons de l’ensemble des données.

Un relevé de ces distances a été fait pour l’ensemble des habitants à 0,1 km près et ensuite ces données sont représentées par un histogramme avec des classes d’am-plitude 0,1 km. Les données auraient donc pu être représentées par un diagramme en bâtons. Ce n’est pas ce choix qui a été fait, mais dans ce cas, une explication pourrait être donnée sur le choix de la répartition sur les classes. Par exemple, un relevé de 3,4 km a été mis dans la classe ]3,3; 3,4] ou [3,4; 3,5[ ? Nous pouvons penser qu’aucun relevé n’a été de 0 et donc que c’est le premier choix qui a été fait, mais ce choix aurait tout intérêt à être précisé. Il ne va pas de soi, car notamment si les données ont été arrondies, on pourrait penser plutôt à prendre comme classe [3,35; 3,45[.

Au niveau de l’histogramme, on remarque tout d’abord que l’axe des ordonnées est nommé fréquence : nous avons déjà précisé que ceci est faux, d’autant plus qu’ici l’amplitude des classes est de 0,1 donc on ne peut pas faire l’amalgame entre

fréquence et densité. Cependant, l’énoncé ne dit pas la même chose que le graphique et précise bien que l’histogramme de fréquences a « pour aire la fréquence de la classe correspondante ». Donc nous pouvons repérer ici une contradiction entre le texte et le graphique. Comme dans le manuel Hyperbole, le référentiel théorique relatif à l’histogramme est donné dans l’énoncé.

Question 1

1.a. On sait que 7,7% des habitants résident à moins de 0,1 km de l’éco-point. En déduire la hauteur du premier rectangle ?

1.b.Que vaut la somme des aires de ces 60 rectangles ?

1.c. Comment est représentée sur le graphique la probabilité

P(0 X < 1) ?

1.d. Pour tout décimal t appartenant à {0; 0,1; 0,2;...; 5,8; 5,9}, que représente sur le graphique la somme des aires des rectangles dont la base est sur [0;t] ?

Démarche mathématique attendue

D’après le rappel donné dans l’énoncé, on sait que l’aire d’un rectangle correspond à la fréquence sur cette classe. Donc : 0,1×h= 0,077, ce qui nous donneh= 0,77. Il est ensuite demandé la somme des aires de ces 60 rectangles, il s’agit donc de la somme des fréquences de chaque classe, c’est-à-dire la fréquence totale, qui est de 1. La probabilité P(0 X < 1), dans cette activité, correspond exactement à la fréquence des habitants résidant à moins de 1 km de l’éco-point le plus proche, c’est-à-dire à l’aire des rectangles sur les 10 classes entre 0 et 1.

Enfin, pour la question 1.d., deux réponses sont envisageables : pour tout décimal

t appartenant à {0; 0,1; 0,2;...; 5,8; 5,9}, la somme des aires des rectangles dont la base est sur [0;t] représente :

– la fréquence des habitants résidant à moins de t km de l’éco-point le plus proche ;

– la probabilité qu’un habitant choisi au hasard réside à moins det km de l’éco-point le plus proche.

La première réponse est vraie dans tous les cas, dans le sens où les aires repré-sentent les fréquences dans un histogramme, alors que la seconde est valable dans le cas particulier de l’activité car ici nous disposons des données pour la population entière et donc la valeur de la probabilité est égale à celle de la fréquence.

Analyse des activités attendues de l’élève

Les deux premières sous-questions sont dans le sous-domaine de la statistique descriptive (SD). Il s’agit d’un travail dans la dimension sémiotique, le référentiel théorique étant rappelé dans l’énoncé. La hauteur d’un rectangle ne correspond pas, contrairement à ce qui est écrit sur le graphique, à la fréquence mais bien à la densité de fréquence. Pour la somme des aires des 60 rectangles, il est nécessaire

de faire un changement de point de vue sur l’objet mathématique et s’intéresser à la fréquence totale. L’additivité des fréquences pour déterminer la fréquence totale doit être disponible.

Dans la question 1.c., apparaît la probabilité, nous nous situons donc dans le sous-domaine des probabilités à densité (PaD). Cependant, dans cetteactivité, probabilité et fréquence sont assimilées : la valeur de l’une est égale à celle de l’autre. Cela est dû au fait que connaissant les données pour l’ensemble de la population, la probabilité