• Aucun résultat trouvé

Constitution du G.R.E.S. au 1 mars 1998 EDITORIAL

N/A
N/A
Protected

Academic year: 2022

Partager "Constitution du G.R.E.S. au 1 mars 1998 EDITORIAL"

Copied!
47
0
0

Texte intégral

(1)

EDITORIAL

Constitution du G.R.E.S. au 1 mars 1998

ANGELIQUE Françoise LEGTA de NANCY

FAGES Jean ENFA TOULOUSE

FAURE Jean-Claude LEGTA de CARCASSONNE

GAUMET Jean-Pascal LEGTA LE ROBILLARD

MALEGANT Jean-Yves ENITIAA de NANTES

MELLAN André LEGTA de LA ROCHE SUR FORON

PARNAUDEAU Jean-Marie LEGTA de VENOURS

PAVY Jacques LEGTA LE ROBILLARD

PRADIN Jean LEGTA de MOULINS

QUET Guillaume LEGTA d’AUBENAS

RIOU Alexis LEGTA de QUIMPER

URDAMPILLETTA Vincent LEGTA de SURGERES

VARLOT Chantal LEGTA de CHALONS SUR MARNE

(2)

ENFA - Bulletin du GRES n°6 – mars 1998 page 1

Contact : Conf PY-MATH@educagri.fr

Chantal VARLOT Le n° 6 vient de paraître. Hasard ou nécessité ? S’agit-il du résultat d’un lancer de dé tronqué ? Non, c’est tout simplement le nouveau bulletin du GRES, son n° était désigné à l’avance…

Nous espérons que les sujets abordés ici répondent à vos attentes, tant sur l’aspect pédagogique que sur le plan de l’approfondissement personnel. Notre souci est de satisfaire le maximum de lecteurs, que vous soyez débutant ou bien que vous ayez une expérience certaine. N’hésitez pas, à ce propos, à nous écrire pour apporter vos contributions ou exprimer vos attentes.

Vous avez pu remarquer dans les bulletins édités jusqu’à présent, une homogénéité dans les notations, en conformité d’ailleurs avec celles présentées dans le bulletin n° 1, page 15.

Pourquoi cela ?

D’un commun accord, nous avions retenu ces notations pour de multiples raisons, en voici les principales :

Rechercher une uniformité, au moins au sein de l’enseignement agricole, afin d’éviter à nos étudiants de rencontrer des notations différentes de celles qu’ils utilisent habituellement, soit en épreuve terminale, soit en passant d’un enseignant à un autre.

Bien différencier les paramètres de la population et ceux de l’échantillon, d’où l’usage des lettres grecques pour les uns et latines pour les autres.

Ces arguments nous semblent toujours parfaitement valables. Cependant il nous paraît utile de préciser à nos chers lecteurs que ces pratiques n’ont rien d’obligatoire, d’autant qu’elles ne résolvent pas le problème de la diversité des notations rencontrées dans tous les ouvrages traitant de la statistique…

Par contre l’utilisation des lettres majuscules pour les variables aléatoires et minuscules pour les valeurs prises par celles ci semble importante même inévitable.

Quant à l’écriture « prob », elle ne semble pas faire l’unanimité. Elle avait été retenue pour bien différencier le « P » de « probabilité » du P » variable aléatoire « prortion », que certains préfèrent noter « F » d’ailleurs… Là encore, rien n’est imposé, que ceux qui préfèrent noter « P » ou « Pr » se rassurent…

Notre préoccupation est d’aider nos collègues à enseigner les statistiques et les probabilités, domaine qui nous tient à cœur et qui nous passionne. Mais en aucun cas elle n’est d’imposer quoi que ce soit !

Bonne année à tous. Que cette année vous apporte encore beaucoup de plaisir à enseigner, et vous donne envie de communiquer avec nous…

(3)

MON NOM EST PEARSON (1857 - 1936)

« J’espère que vous vous épanouirez en probabilités ». Lettre d’EDGEWORTH à PEARSON, 1893.

Après des études de Mathématiques à Cambridge et d’Histoire et de Philosophie en Allemagne, Karl PEARSON est d’abord nommé professeur de Mathématiques appliquées à Londres. Il enseigna, en particulier, la géométrie des statistiques et les méthodes graphiques en statistique.

En 1892, il publie « La grammaire des sciences », puis, en 1911, il est nommé professeur d’Eugénique*.

L’œuvre en statistique de Karl PEARSON est immense, il n’est pas question d’être exhaustif mais plutôt de montrer, au travers de quelques exemples, ses contributions au développement de la statistique ainsi que ses rapports avec ses contemporains.

En 1892, il commence à travailler avec des données du biologiste WELDON (des mesures sur des crabes et des crevettes) observant de fortes dissymétries, il cherche une représentation mathématique et, dans l’article publié, en 1894, il propose la méthode des moments pour construire des estimateurs (cette méthode tire son nom du fait qu’elle consiste à égaler les moments « empirique » et les moments « théoriques »). C’est aussi à cette époque (1893) que PEARSON introduit le terme « standart déviation » et la notation σ.

En 1894, il introduit l’expression de « loi normale » pour remplacer les termes de « courbe en cloche », « courbe de GAUSS » ou « courbe de possibilités ».

En 1900, il propose d’utiliser le test de Khideux ; cette date est importante car depuis ces travaux, l’usage de tests devient systématique pour éprouver des hypothèses. L’objet de cet article était de mettre au point une méthode pour mesurer le degré d’adéquation entre des valeurs observées et des valeurs obtenues par un modèle théorique. Pour la petite histoire, PEARSON a lancé et fait lancer des dés, mais c’est WELDON qui, dans la littérature, en a la paternité.

Ce test fera l’objet (et fait encore l’objet) de nombreuses polémiques par exemple sur le nombre de degrés de liberté. Une vive polémique l’opposa à son collègue (et ancien étudiant) YULE.

<pour PEARSON, si on étudie deux caractères sur une population, les distributions « mères » sont supposées normales. Pour YULE, on trie une population en « classes d’équivalence » clairement discontinues (sexe, mort/vivant, ...). D’un côté continuité et normalité, de l’autre classe d’équivalence et donc discontinuité. Autant dire que les querelles furent rudes. (NDR : elles le sont encore !)

Parmi les travaux de PEARSON, il faut citer son importante contribution aux notions de régression et corrélation.

Au début du dix-neuvième siècle, Carl Friedrich GAUSS et LEGENDRE publient la méthode des moindres carrés. Vers 1810, GAUSS LEGENDRE et LAPLACE établissent des « liens entre cette méthode et les probabilités » et en particulier la loi normale. Il semblerait que

* Extrait de « Le petit Larousse illustré 1995 » : eugénisme (ou eugénique) (eu bien et gennän engendrer) .

(4)

ENFA - Bulletin du GRES n°6 – mars 1998 page 3 Contact : Conf PY-MATH@educagri.fr

GAUSS ait compris que la réussite de la méthode des moindres carrés soit due pour une grande part à la normalité des "erreurs".

Pour la petite histoire, lorsqu’en 1808, DELAMBRE informe l’empereur NAPOLEON des progrès en Mathématiques depuis la révolution, il présente, dans un excès d’optimisme, cette méthode comme destinée à « rendre nulle la somme des carrés des erreurs ». NAPOLEON en rigolait encore à Sainte Hélène !

N’oublions pas que si, pour beaucoup, cette méthode est devenue un procédé purement mécanique destiné à fournir des coefficients, l’idée de départ était de fournir une méthode simple à comprendre et à appliquer afin de résoudre des problèmes d’Astronomie et de géodésie. Un physicien la comprenait bien, car on minimise une inertie.

La notion de corrélation (ou co-relation comme l’écrivait GALTON) tarde à se préciser. Des nombreux travaux sont entrepris. EDGEWORTH est un des premiers à comprendre que les valeurs, fournies par la méthode des moindres carrés, sont des estimations ; mais des estimations de quoi ?

En 1896, PEARSON s’intéresse à la corrélation. Son premier article consiste à, d’une part faire le point sur les différents résultats connus, d’autre part répondre à la question « quelles sont les hypothèses qui sont sous-jacentes ? ». Que signifie l’affirmation : « c’est la méthode des moindres carrés qui fournit les meilleurs estimateurs de a et b (dans Y = aX + b) » ; meilleurs dans quel sens ? Pour terminer sur ces notions, citons un résultat du à PEARSON :

En 1906, il accueille GOSSET (alias STUDENT)dans son laboratoire.

En 1911, il fut une des fondateurs, avec en particulier GALTON et WELDON, de la revue Biométrika. Revue dont il fut le directeur jusqu’à sa mort en 1936.

Avant PEARSON, on peut dire que l’étude des probabilités et des statistiques était le fait d’individus isolés. PEARSON a su constituer des équipes. Lorsqu’il prend sa retraite, en 1933, son laboratoire donne naissance à trois laboratoires : un de statistiques appliquées dirigé par son fils Egon PEARSON, un d’eugénique, dirigé par RA FISHER, et un de génétique, dirigé par HALDANE.

De grandes querelles l’ont opposé à ses contemporains parmi lesquels on peut citer FISHER, YULE mais aussi l’économiste KEYNES.

Histoire d’en rire, en 1895, WELDON, dans une lettre à GALTON, écrit : « Quand il émerge de son nuage de symboles mathématiques, PEARSON me semble raisonner de façon branlante, et ne pas prendre soin de comprendre ses données [...]Si je ne lui fais pas confiance comme un penseur clair, puis je lui accorder implicitement cette confiance quand il se cache derrière une table de fonction gamma. [...] J’ai très peur des mathématiciens sans formation expérimentale.

Regardez PEARSON. »

Ce texte est encore d’actualité, il suffit d’observer, autour de nous, les querelles entre

« probabilistes » et « statisticiens de terrain ». Le plus étonnant, c’est que GALTON n’hésitait pas à recommander à certaines revues la publication d’articles de PEARSON, en précisant qu’il n’était pas capable de comprendre les démonstrations.

Pour beaucoup, les statistiques ne sont pas considérées comme partie intégrante des Mathématiques ; « on ne démontre rien ». On lit aussi «...la démonstration dépasse le cadre de cet ouvrage... »...

(5)

Dans [1], on peut lire que PEARSON « a pu établir que les fonctions de densité de probabilité de la plupart des distributions rencontrées sont des solutions de l’équation différentielle :

dy dx

x a y

b b x b x

= −

+ +

( )

0 1 2

2

Si l’on veut, on peut commencer par étudier le cas où toutes les constantes sont nulles sauf b0 qui vaut -1 (normal non !).

Appel aux lecteurs, quelle est l’origine de cette équation différentielle ?

Bibliographie utilisée :

[1] DAGNELIE P. Théorie et méthodes statistiques tome 1 P.A. de GEMBLOUX [2] DESROSIERES A La politique des grands nombres Editions de la découverte [3]DROESBEKE J.J. et TASSI P. Histoire de la statistique Que Sais Je n° 2527.

(6)

ENFA - Bulletin du GRES n°6 – mars 1998 page 5 Contact : Conf PY-MATH@educagri.fr

LES "BOITES NOIRES" DE LA STATISTIQUE...

Première partie.

Nous allons, dans cette série d’articles, essayer d’y voir un peu plus clair (doux euphémisme, NDLR) en ce qui concerne l’utilisation des programmes informatiques, ou

"macro", dédiés à la Statistique.

A tout seigneur tout honneur, nous commencerons par le logiciel qui est le plus utilisé pour mener des calculs, statistiques ou autres, il s’agit d’EXCEL.

Comme vous le savez, ce logiciel possède des fonctions de calcul d’une puissance et d’une efficacité impressionnantes, mais aussi, et c’est ce qui justifie notre propos, des

"outils d’analyse", dédiés à la statistique, sont implémentés à partir de la version V*

Ces "macro" traitent des statistiques descriptives, des tests de conformité, des tests de comparaison de deux paramètres, de la régression, des analyses de variance etc..

Ils sont d’une utilisation aisée , mais leur manipulation réclame un certain nombre de précautions, une certaine dextérité et enfin un esprit critique et connaisseur !

Pour vous en persuader, nous allons commencer par "décrypter" la façon très particulière avec laquelle les programmeurs d’EXCEL ont traité un test très classique et dont l’étude a souvent été abordée dans notre revue, il s’agit du test de comparaison des variances de deux collectifs, dit "TEST-F".

Il s’agit, à partir d’échantillons aléatoires simples et indépendants, de mettre en place un test de Fisher qui permettra de vérifier que les variables parentes sont de même variance (homoscédasticité) ou pas.

Dans l’exemple choisi, la variable aléatoire X est distribuée normalement, celle-ci prend pour valeur la teneur en « matière protéique » de fromages "Belle Hélène" (publicité gratuite).

Un exemplaire de ce délicieux fromage sera expédié à chaque lecteur qui participera de façon active à cette rubrique.

Nous considérerons dans cet article que les hypothèses préalables à la mise en place du test de Fisher sont réunies.

Vous pouvez, à ce sujet, consulter les numéros précédents de la revue du GRES.

Les deux échantillons prélevés sont extraits suivant un protocole EASI et indépendants entre eux.

Fabrication I 27,5 28,1 28,2 27,8 28,2 28,4 27,9 27,8 27,9 27,5 28,3 27,4 27,4 27,9 27,9 Fabrication II 28,3 28,1 28,7 27,9 28,8 28,2 28,6 28,3 28,1 27,7 29,1 28,3 28,3 27,9 28,2

Nous allons rappeler, en guise de préalable, les différentes étapes qui permettent de faire un test de signification statistique.

* Si vous n’avez pas la chance de pouvoir utiliser EXCEL V, vous pouvez disposer de ces fameuses macro statistique ; elles sont fournies gratuitement par Microsoft avec EXCEL IV sur simple demande.

(7)

En premier lieu, il convient d’écrire les hypothèses nulle et alternative.

H0 : σ21= σ22 qui exprime le fait que les collectifs d’origine sont homoscédastiques.

H1 : σ21 # σ22

Ensuite il faut définir le risque de première espèce α, qui correspond au rejet éventuel de H0 à tort, et qui, compte tenu de H1, est BILATERAL.(CF les n° précédents de la revue)

Nous choisissons un risque de première espèce α=0,05 qui nous permettra de mettre en place une règle de décision bilatérale.

La variable aléatoire que nous avons choisie pour ce test est F.

Elle prend pour valeur le rapport des estimations des variances respectives des deux collectifs, soit :

S n

n S S n

n S

1

2 1

1

1 2

2

2 2

2

2 2

1 1

= − =

avec F S

= S

1 2

21 2

La règle de décision de ce test, basée sur les deux valeurs critiques prises par F, est représentée ci-dessous :

Rejet de H0 H 0 Rejet de H0 0,336 2,978

ou

0 0,2 0,4 0,6 0,8 1

Si f calculé à partir des échantillons est à l’extérieur de l’intervalle [0.336 ;2.978] alors nous rejetons H0 ; ce faisant nous prenons au maximum un risque d’erreur de 5%.

Dans l’exemple choisie f vaut 0,7625 , en conséquence nous ne rejetterons pas H0 et nous considérerons que les fabrications sont homoscédastiques.

Les bornes de l’intervalle ont été obtenues, soit à partir d’une table, soit d ’ EXCEL grâce à la fonction INVERSE.LOI.F(probabilité;degrés_liberté1;degrés_liberté2) où probabilité correspond à α

2 , ici à 0.025.

Quand aux degrés de liberté, leur valeur dépend de ce que vous avez choisi pour le numérateur

(8)

ENFA - Bulletin du GRES n°6 – mars 1998 page 7 Contact : Conf PY-MATH@educagri.fr

Celle-ci devra nous donner le détail des calculs statistiques et les valeurs qui permettent de prendre la décision.

Pour la mettre en branle, il faut ouvrir le menu « Outils », puis « Utilitaire d’analyse » et là, choisir « Test d’égalité des variances (F-test) ».

Voici ce que donne textuellement ce programme en l’appliquant à notre exemple :

Test d’égalité des variances (F-Test)

Fabrication 1 Fabrication I1

Moyennes 27.88 28.3

Variance 0.10457 0.13714 (1)

Observations 15 15

Degré de liberté 14 14

F 0.7625 (2)

P(F<=f) unilatéral 0.69060 (3)

Valeur critique F (unilatéral) 0.40262 (4)

Ce tableau de valeurs nous amène à faire les remarques suivantes :

Les variances des échantillons, notées habituellement s²1 et2 ne sont pas calculées ici.

Ce qui est désigné sous le nom de « Variance» est en fait l’estimation de la variance faite à partir de l’échantillon soit s n

n s s n

n s

1

2 1

1 1

2 2

2 2

2 2 2

1 1

= =

avec ici n1 = n2 = 15 .

La valeur de F calculée (« F » qu’il faudrait noter « f ») correspond bien au rapport des deux estimations de variance, ici ce rapport est inférieur à 1.

Le programmeur a choisi de calculer f en mettant systématiquement la valeur de la première colonne au numérateur. Malheureusement, il ne tiendra plus compte de son choix par la suite ! En (3) on nous gratifie d’une probabilité difficilement exploitable par le commun des mortels...« P(F<=f) unilatéral » qui vaut 0,69. Il s’agit en fait de Prob (F ≥ f), ici de

Prob (F ≥ 0,7625) = 0,69 comme l’indique le schéma ci-dessous.

0 0,2 0,4 0,6 0,8 1

Vous pouvez vérifier ce résultat grâce à la fonction citée plus haut.

On nous suggère, semble - t- il, de comparer cette valeur soit à 0,95 soit à 0,05 suivant que f calculé est inférieur ou supérieur à 1 ! ! !

(9)

En fait, puisqu’ici f est inférieur à 1,et que le test est bilatéral, il faudra la comparer à 1α 2 , ici à 0,975.

Tant que cette valeur est inférieure à 0,975, on ne rejette pas H0

En (4), on insiste lourdement, puisque la seule valeur critique fournie, F0,05 ;14 ;14 correspond de fait à une règle unilatérale avec a=0.05, elle est donc strictement inutile ! !

Pour ce test qui consiste en une comparaison de deux variances, et qui en conséquence est bilatéral (voir revue n°3 et 4), il nous faudrait les valeurs de F0,005 ;14 ;14 et F0,975 ;14 ;14.

Alors « Que faire ? » , faut-t-il tout jeter à la poubelle de l’informatique ? Peut-on utiliser cette

« macro » de façon raisonnée ?

La « paille » la plus grave de conséquence est la confusion entre « Test unilatéral » et «Test bilatéral ».

Pour retrouver une valeur critique correcte, f1 ou f2 , suivant le cas, il suffit de paramétrer la macro avec 2,5% au lieu des 5 % classiques.

Pour avoir les deux valeurs critiques, fournies au lignes (4) , il suffit de faire tourner la macro deux fois , en prenant le soin d’intervertir les colonnes et le tour est joué !

Vous pouvez établir alors une règle de décision de ce test bilatéral avec les deux valeurs.

Si les valeurs calculées aux lignes (2) sont à l’extérieur de l’intervalle défini par ces nombres, alors H0 est rejetée avec un risque de 5%.

Une « macro », de qualité , devrait calculer les statistiques, f et 1/f , puis nous fournir les valeurs critiques nécessaires à la mise en place de la règle de décision bilatérale ; soit F0,025 ;14 ;14

et F0,975 ;14 ;14 dans notre exemple.

Rejet de H0 H 0 Rejet de H0 0,336 2,978

Le concours est ouvert !

Le collègue qui fournira la « macro » la plus simple à mettre en œuvre (et juste! NDLR) sera grassement récompensé comme il se doit !

En guise de conclusion nous pouvons affirmer que ces « macro » sont très « sympathiques » pour effectuer à notre place des calculs rébarbatifs , mais d’une extrême confusion du point de vue statistique... alors méfiance et vigilance sont de rigueurs !

Nous traiterons lors du prochain article des tests de comparaison de Student.

Remarque :

Nous n’avons pas parlé ici, de la fonction TEST.F() qui, accompagnée de son « aide » dépasse de très loin tout ce que l’on peut imaginer !

(10)

ENFA - Bulletin du GRES n°6 – mars 1998 page 9 Contact : Conf PY-MATH@educagri.fr

EXEMPLE D’ANALYSE D’UN TABLEAU : LA CLASSIFICATION HIERARCHIQUE

Cette étude a pour but d’exploiter les données numériques d’un tableau pour "classer" les individus représentés dans ce tableau. Ce classement pourra, par exemple, être représenté sous la forme d’un dendrogramme*.

L’étude est basée sur le calcul de distances entre les individus qui sont représentés dans le tableau de données.

Diverses méthodes de classification sont à notre disposition. Les plus importantes sont celles basées sur les partitions et celles qui sont hiérarchiques.

Parmi les "hiérarchiques" nous avons choisi celle des "agglomérats avec chaînage simple".

Cette méthode pourra être appliquée à tous les tableaux rassemblant des observations numériques, par exemple les résultats scolaires d’une classe dans diverses disciplines (exemple en Annexe).

Prenons un exemple : il s’agit de classer les membres d’un jury de 5 personnes par affinité en fonction des notes qu’ils ont attribuées à un produit alimentaire.

Quatre descripteurs** ont été mis en place afin de caractériser un nouveau "Petit Suisse".

Ce sont le goût, désigné par go ; l’odeur od ; la texture te ; la couleur co.

Afin de faire apparaître d’éventuelles disparités (ou affinités !) entre ces personnes, on pratique une expérience qui consiste à faire noter, de 1 à 14 le nouveau "Petit Suisse", suivant chacun des descripteurs.

Voici les résultats de cette expérience collectés sur une feuille EXCEL : A B C D E 1

Juré

go od te co

2 A 11.5 9 12 11.5

3 B 8 9.5 11 12.5

4 C 11 10.5 11.5 11

5 D 12 11.5 9 8.5

6 E 12.5 11 10 9.5

En calculant les distances euclidiennes et en agrégeant les individus les plus proches, nous allons faire apparaître des groupes grâce à un algorithme de "classification hiérarchique et agglomérative".

Nous conclurons en disant que les éléments composant un agrégat ont des appréciations assez similaires.

*Dendrogrammes :il s’agit d’une structure arborescente accompagnée d’une échelle

**Descripteurs : ce sont des variables qualitatives , des polytomies (voir annexe) ,ordonnées ou non .En analyse sensorielle , les plus connues sont les saveurs (sucrées ,amère, acide etc..) ou la texture , l’astringence etc..

Ces variables sont , en général , mises en place après discussion d’un jury d’expert suivie d’un « essai » et enfin d’une analyse de classification ou d’une ACP .Tout ceci a pour objectif la simplification , la réduction du nombre de variables du système, et surtout l’élimination de celles qui seraient redondantes. Par exemple il arrive que certains jury amalgament les descripteurs du type « râpeux » ou « granuleux » en les notant de façon semblable.

(11)

Rappel de quelques définitions sur les distances.

Soit E un ensemble d’objets, on appelle distance sur E, toute application d de ExE sur IR+ qui vérifie : pour tout X, pour tout Y, pour tout Z de E,

- d(X,Y) = 0 <==> X = Y - d (X,Y) = d (Y,X)

- d (X,Z) d (X,Y) + d (Y,Z)

Nous allons par la suite utiliser la définition suivante sur la distance entre un couple d’objets et un objet :

d((X,Y) , Z)= min [d(X,Z) ;d(Y,Z)]

Une des familles de distance la plus utilisée est celle de Minkovski définie ci dessous : Soit X et Y deux vecteurs à n composantes :

d(X,Y) xi yi p

i 1 n

=p

= avec p1

La distance la plus fréquemment utilisée est la « distance euclidienne », celle où p=2.

( )

d(X,Y) xi yi

i 1

= n

= 2 2

Nous allons utiliser cette distance dans l’exemple de classification hiérarchique automatique de notre jury de « testeurs » de « Petit Suisse »

Remarques diverses :

Un deuxième type de distance est utilisé dans les tableaux de contingence , il s’agit de la distance de χ² .

Nous traiterons un exemple dans un prochain numéro.

Nous complèterons également notre étude en pratiquant une ACP (Analyse en Composantes Principales).

Description de l’algorithme de classification à partir de notre exemple.

1 Calcul des distances euclidiennes.

Comme nous l’avons dit, ces calculs sont le prélude à des analyses plus complexes , dont nous parlerons dans d’autres numéros, ACP , AFC et autres techniques « d’analyse de données ».

Nous allons tout d’abord calculer les distances euclidiennes afin d’établir une classification portant sur le jury d ’analyse sensorielle présentée plus haut. La paire constituée des éléments les plus proches constituera le premier « agrégat ».On procédera ainsi de façon séquentielle jusqu'à « épuisement » du tableau des distances.

Ces distances sont donc obtenues grâce à l’expression : d(X,Y)

(

xi yi

)

i 1

= n

= 2

2 .

Avec le tableur EXCEL, le calcul peut se faire en utilisant la fonction SOMME.XMY2(X;Y) dont on prendra la racine carrée.

(12)

ENFA - Bulletin du GRES n°6 – mars 1998 page 11 Contact : Conf PY-MATH@educagri.fr

A B C D E F G H

9 A B C D E

10 A 0 3,81 1,73 4,95 3,61

11 B 3,81 0 3,54 6,32 5,70 12 C 1,73 3,54 0 3,81 2,65

13 D 4,95 6,32 3,81 0 1,58

14 E 3,61 5,70 2,65 1,58 0 1,58 La formule de la cellule B10 est :

= RACINE(SOMME.XMY2($B$2:$E$2;B2: E2))

La formule de la cellule C10 est : =RACINE(SOMME.XMY2($B$3:$E$3;B2:E2)) et ainsi de suite dans les cellules D10, E10 et F10

Le bloc B10:F10 est ensuite recopié vers le bas jusqu’à la ligne 14.

Pour obtenir la valeur, non nulle, la plus petite du tableau on peut utiliser la fonction EXCEL : PETITE.VALEUR(mat;k) qui renvoie la plus petite valeur de rang k du tableau mat ; attention cette fonction tient compte des ex aequo donc ici nous utiliserons la formule, dans la cellule H14 ( à cause des 5 zéros du tableau), =PETITE.VALEUR(B10:F14;6) qui renvoie la valeur 1,58.

Nous trouvons donc que les individus D et E sont "les plus proches".

* Nous allons maintenant chercher les distances entre les objets A, B, C, (D,E) A B C D E F G

17 A B C (D,E)

18 A 0 3,81 1,73 3,61 19 B 3,81 0 3,54 5,70 20 C 1,73 3,54 0 2,65

21 (D,E) 3,61 5,70 2,65 0 1,73 La plage B18:D20 est une recopie (des valeurs) de la plage correspondante du tableau précédent, la ligne (et la colonne) (D,E) se détermine, à partir du tableau précédent en regardant la plus petite distance de chacun des individus A,B et C à D et à E (il se trouve qu’ici c’est systématiquement D qui est le plus proche).

La valeur non nulle la plus petite du tableau est donnée dans la cellule G21 par la formule :

=PETITE.VALEUR(B18:E21;5)

Les deux objets les plus proches sont donc A et C.

* Nous allons maintenant chercher les distances entre les objets B, (A,C) et (D,E)

A B C D E F 24 B (A,C) (D,E)

25 B 0 3,54 5,70 26 (A,C) 3,54 0 2,65 27 (D,E) 5,70 2,65 0 2,65

(13)

Ce tableau est réalisé en recopiant du tableau précédent les valeurs convenables.

On constate que les objets les plus proches sont (A,C) et (D,E).

* La dernière étape, symbolique, consiste à constater que la distance de B à ((A,C),(D,E)) est 3,54.

A B C D E

30 B ((A,C),(D,E))

31 B 0 3,54

32 ((A,C),(D,E)) 3,54 0 3,54

2) Pour conclure quant à nos jurés :

Nous pouvons distinguer trois groupes ou agrégats, le premier formé des jurés D et E distant de celui de A et C de 2,65 unités et enfin au loin le juré B distant de 3,54 de ses voisins les plus proches. Il semble que ce dernier devra être exclu du jury , au moins durant sa période de rhume.

(14)

ENFA - Bulletin du GRES n°6 – mars 1998 page 13 Contact : Conf PY-MATH@educagri.fr

Nous pouvons illustrer la situation à l’aide du dendrogramme suivant :

3,54

2,65

1,58 1,73

D E A C B

Il existe de nombreuses autres méthodes de classification ; les logiciels informatiques dédiés à la statistique permettent la mise en œuvre de ces méthodes.

(15)

Annexes :

1 Petit exercice livré à votre sagacité.

Voici les résultats, ce trimestre, de 7 élèves de 6éme « Europe » du collège Robert Lapointe de Pézenas, qui en plus de leurs cours pratiquent activement l’art choral.

Vous devez mettre en place une classification hiérarchique portant sur ces élèves.

Noms Français Math Anglais Histoir e

SVDT Techno Ed Mus

Art Plas

Educ P

Bouis F 7 10 11 5 5 11 6 10 14

Cartouche I 13 12 16 12 14 13 13 13 15

Desbois S 11 5 16 6 4 12 2 11 9

Goupil H 14 13 16 11 18 15 8 13 14

Lepape E 7 6 7 9 3 11 2 6 14

Mammou R 11 18 12 11 15 13 13 12 14

Vous constaterez que deux groupes principaux seront différenciés.

Celui formé par I,H et R qui est à une distance de 16 unités environ de celui formé par F, E et S .

Plus précisément, vous allez mettre en évidence 4 agglomérats : IH-R-FE-S

1 6

7 , 7 1 0 , 5

7 9 , 2

H I R E F S

2 Quelques ouvrages à consulter sur le sujet :

« Classification automatique des données » chez Dunod par Celeux, Diday (1989)

« Classification automatique pour l ’analyse des donnée » chez Dunod par Jambu, Lebeaux (1978)

« L’analyse des données » dans la collection Que Sais - Je par Saporta et Bourroche.

On peut consulter les sites spécialisés en « Statistics » sur INTERNET...ils sont nombreux et variés.

(16)

ENFA - Bulletin du GRES n°6 – mars 1998 page 15 Contact : Conf PY-MATH@educagri.fr

INITIATION A LA REGRESSION

Nous allons essayer, dans cet article, de poser, en termes simples, le problème de la régression, de préciser certaines appellations et notations. Toutes les notions abordées ici seront ensuite approfondies dans un bulletin spécial consacré à la régression.

I ) CORRELATION ET REGRESSION.

Distinguons tout d’abord ces deux notions.

La corrélation concerne l’étude simultanée de deux variables aléatoires X et Y sur un échantillon de n individus. Les deux variables jouent un rôle symétrique, elles sont inter changeables. Le coefficient de corrélation mesure l’intensité de la relation entre ces deux variables aléatoires.

Dans un problème de régression, une des variables, Y, est aléatoire, la seconde X ne l’est pas. X est une variable contrôlée. (même si X est aléatoire dans sa nature, pour l’étude faite sur l’échantillon, ses valeurs ont été déterminées au préalable par l’expérimentateur). X et Y jouent donc un rôle dissymétrique : Y mesure l’effet, X la cause.

Y est appelée variable expliquée et X est la variable explicative.

Dans certains cas, la variable aléatoire Y peut dépendre de plusieurs variables X1 , X2 ,..., Xn..

Par exemple, le rendement d’une parcelle de blé pour une variété donnée dépend de la dose de semis X1, de la fumure X2, de la pluviométrie X3, etc...Dans ce cas, il s’agit d’une régression multiple, qui sera développée dans le bulletin spécial.

Nous n'aborderons ici que le cas où Y dépend d'un seul facteur X, c'est la régression simple.

Le but de l'analyse de régression est :

d'étudier la relation entre cette variable aléatoire Y et la variable numérique X. dont elle semble dépendre

de conjecturer, à partir des observations, le type de cette relation (affine, exponentielle, puissance,...)

de chercher à exprimer cette relation mathématique liant X et Y.

d'évaluer la part du facteur X dans la variabilité de Y.

• d'utiliser cette relation mathématique pour estimer les valeurs prises par Y à partir de celles prises par le facteur X.

L'exemple suivant, extrait des annales de B T S sera utilisé pour concrétiser les notions que nous allons aborder :

L'étude porte sur l'influence d'un apport d'aliment concentré sur la croissance de faons au cours de leur premier hiver. Le tableau statistique suivant donne la quantité x de concentré consommé (en grammes) par jour et par animal et la croissance y de l'animal(en grammes) par jour.

x: quantité de concentré en g 410 420 600 720 750 940 960 1020 y: gain de poids par jour en g 22 38 40 50 48 76 72 80

(17)

Les questions habituellement posées dans ce genre d'exercice sont : 1°) Représenter le nuage de points associé à cette série (x,y).

2°) Calculer le coefficient de corrélation linéaire entre les variables X et Y.

3°) Déterminer, par la méthode des moindres carrés, une équation de la droite de régression de Y en X.

4°) Estimer le gain de poids journalier d'un animal consommant une quantité de concentré égale à...

__________________

Bien facile direz-vous, surtout si l'on dispose d'une calculatrice qui fait tous les calculs ! Mais le rôle de la statistique ne s'arrête pas là. L'arbre cache une forêt que nous tenterons de pénétrer progressivement.

II ) VOCABULAIRE ET NOTATION

Pour l’exemple considéré, nous disposons de 8 couples de valeurs notés (xi ; yi). Cet ensemble de données constitue un échantillon aléatoire simple prélevé dans une population (l'ensemble des couples de valeurs correspondant à l'ensemble des faons ainsi alimentés). x1, x2,...,x8 sont 8 valeurs observées de la variable X qui à chaque faon, prélevé au hasard, associe la quantité de concentré qu'il consomme par jour. De même y1, y2,...,y8 sont 8 valeurs observées de la variable aléatoire Y qui, à chaque faon, associe son gain de poids quotidien.

La variable aléatoire Y est appelée variable expliquée. La variable X est appelée variable explicative

III ) MODELE LINEAIRE : CONDITIONS

Vérifions que les conditions préalables à l’étude de la régression sont bien remplies.

• La variable Y est bien une variable aléatoire. Elle doit être distribuée selon une loi normale.

Ici, s’agissant d’un poids, cette hypothèse n’a pas lieu d’être mise en cause.

La variable explicative X est-elle contrôlée ?

Dans l'exemple ci-dessus, comment connaître la quantité de concentré consommée par un animal en liberté ? Nous pouvons supposer que les faons proviennent d'un élevage L'expérimentateur aurait retenu au départ 8 quantités de concentré, puis, pour chacune de ces 8 valeurs xi , il a prélevé au hasard un faon parmi ceux qui consommaient une quantité de concentré égale à xi. Dans ce cas X est bien une variable contrôlée.

Considérons la population dont on a extrait l'échantillon de 8 couples de valeurs. Pour tout entier i variant de 1 à 8, considérons la variable aléatoire Yi qui, à chaque faon dont la consommation de concentré prend la valeur xi donnée, associe son gain de poids quotidien.

Cette variable aléatoire peut aussi être notée :

" Y / X=xi " (Y sachant que X prend la valeur xi)

On suppose que les 8 variables aléatoires Yi sont indépendantes et que chacune d’elles est distribuée selon une loi Normale de moyenne μi dépendante de xi, et d'écart type σ constant. Les 8 variables Yi ont donc la même variance. Cela signifie que pour une consommation de concentré donnée, le gain de poids quotidien moyen dépend de cette

(18)

ENFA - Bulletin du GRES n°6 – mars 1998 page 17 Contact : Conf PY-MATH@educagri.fr

IV ) DROITE DE REGRESSION

Les conditions précédentes sont vérifiées et la forme du nuage de points permet d'envisager un ajustement affine. Plusieurs méthodes sont possibles.

Soit Mi le point de coordonnées (xi ,yi) pour i=1,2...,8. On cherche à déterminer les coefficients a et b d'une droite ( D ) telle que la somme des carrés des distances MiPi soit minimale. Selon la méthode, Pi désigne

soit le projeté de Mi sur ( D ) parallèlement à l'axe des ordonnées.

soit le projeté de Mi sur ( D ) parallèlement à l'axe des abscisses.

soit le projeté orthogonal de Mi sur ( D ).

Nous retenons la première méthode, la plus habituelle, et nous obtenons :

a x y nx y

x nx ou encore a X Y

s X et b y ax

i i

i

= ∑ −

∑ −2 = = −

²

cov( , )

²( )

L'équation de la droite (D) est alors y =ax b+ y désigne une valeur estimée de la variable Y pour une valeur x du facteur X (remarque : la plupart des calculatrices donnent cette équation sous la forme y= +a bx, les coefficients sont donc échangés).

La droite (D) est appelée droite de régression de Y en X.

Les valeurs ainsi obtenues de a et b sont propres à l'échantillon prélevé. Un autre échantillon, issu de la même population, aurait fourni 8 autres couples (xi ,yi) de valeurs probablement différentes, et donc l’équation d’une autre droite de régression de Y en X.

Cela conduit à introduire deux variables aléatoires A et B qui, à chaque échantillon de 8 observations, issu de cette population, associent respectivement la pente a et l'ordonnée à l'origine b de la droite de régression associée. Si l'on pouvait étudier tous les individus de la population et obtenir ainsi tous les couples de valeurs (xi , yi), on pourrait déterminer la droite de régression de Y en X dont l'équation pourrait s'écrire yx. Les espérances mathématiques respectives des variables aléatoires A et B ont pour valeur : E (A) = α et E (B)

= β.

Ce qui signifie qu’en moyenne A prend la valeur α et B la valeur β .

V.).COEFFICIENT DE CORRELATION ET COEFFICIENT DE DETERMINATION Nous connaissons tous le coefficient de corrélation et son interprétation.

y

yi

(D)

P"

i

Pi

X Xi

Mi

P"i

(19)

r X Y s X s Y

x y nx y

x nx y ny

i i

i i

= × = ∑ −

∑ − ∑ −

cov( , )

( ) ( ) 2 2 2 2 .

Dans l'exemple des faons, on obtient r = 0,96. Ce coefficient est proche de 1, la corrélation linéaire entre X et Y est importante.

Le coefficient de détermination est égal à r². Que représente t-il ?

Sachant que yi − =y (yiyi) (+ yiy) , en élevant au carré et en sommant, on démontre que ∑(yiy = ∑(yiyi + ∑(yiy .

(puisque cet article s'intitule "initiation à la régression ", les démonstrations ne sont pas pour aujourd'hui. Vous les trouverez peut-être dans le prochain bulletin spécial...).

Rappelons que :

∑(yiy est la somme des carrés des écarts totale ou variabilité totale.

∑(yiy est la somme des carrés de la régression ou variabilité expliquée.

∑(yiyi est la somme des carrés des résidus ou variabilité résiduelle ou

variabilité inexpliquée.

Soit variabilité totale = variabilité expliquée + variabilité résiduelle.

On démontre aussi que = variabilité expliquée variabilité totale .

Le coefficient de détermination r² mesure la part de la variabilité totale de la variable Y qui est expliquée par le facteur X. Dans l'exemple traité, r² = 0,92 signifie que 92 pour cent de la variabilité du gain de poids quotidien est expliqué par la consommation journalière de concentré. 8 pour cent de cette variabilité restent donc actuellement inexpliqués. (Il faudrait faire intervenir d'autres variables explicatives ce qui conduirait à une régression multiple).

VI ) RESIDUS

Mi

M Y

(D) Ŷi

Y’i

ei

Pi

X Xi

X Y

(20)

ENFA - Bulletin du GRES n°6 – mars 1998 page 19 Contact : Conf PY-MATH@educagri.fr

Le nombre réel ei = yi - yi , différence entre la valeur observée et la valeur estimée est appelé écart résiduel ou plus simplement résidu, associé à la valeur xi. On a donc :

yi = a xi + b + ei pour i = 1, 2,...8.

Considérons la variable aléatoire εi qui, à chaque individu de la population, associe l'écart résiduel. On a .

ε

i =Yi Yi

Pour le modèle linéaire, les 8 variables aléatoires εi doivent être distribuées selon une loi Normale de moyenne nulle (les points (xi , yi) sont répartis ‘’ d'égale façon ’’ de part et d'autre de la droite de régression) et de même variance égale à σ² (variance commune à toutes les variables aléatoires Yi . Voir III).

Reprenons l'exemple des faons et calculons les résidus. : Une équation de la droite de régression est y =0 084, x−7 642,

xi 410 420 600 720 750 940 960 1020 yi 22 38 40 50 48 76 72 80 yi 26.675 27.512 42.578 52.622 55.133 71.036 72.71 77.732 ei -4.675 10.488 -2.578 -2.622 -7.133 4.9643 -0.71 2.2683

La moyenne des résidus est nulle et la variance s² est égale à 28,3180

Remarque : les calculs ont été effectués avec les valeurs de a et b non arrondies.

VII ) ANALYSE DES RESIDUS ; VALIDATION DU MODELE

L'hypothèse selon laquelle les résidus sont répartis selon la loi Normale

N ( 0 ;σ ) est-elle vérifiée ? Pour chaque valeur xi de X, calculons le résidu réduit défini par u e

i s

= i

s² désigne une estimation de la variance σ ² résiduelle (voir VI)

²

s e

n

= ∑ i

2

2 Dans l'exemple s²= 37,76. Le calcul des résidus réduits donne :

xi 410 420 600 720 750 940 960 1020 ui -0.76 1.71 -0.42 -0.43 -1.16 0.81 -0.12 0.37

De façon générale, si les résidus réduits sont distribués selon la loi

N (0 ; 1), 95 % d'entre eux prennent leur valeur entre - 1,96 et 1,96 et 99 % entre - 2,58 et 2,58. Dans l'exemple étudié, tous les résidus réduits sont compris entre - 1,96 et 1,96, nous pouvons donc accepter l'hypothèse de normalité des résidus. Aucune anomalie n’est à signaler.

Si tel n'avait pas été le cas, le modèle linéaire aurait du être remis en cause, ou bien des données dites suspectes auraient pu être décelées...

(21)

Le logiciel EXCEL 5 permet bien sur de faire ces calculs. Vous en avez l’exemple en annexe.

Une représentation graphique des résidus peut mettre en évidence :

leur répartition aléatoire.

leur présence à 95 % dans l'intervalle [ -1,96 ; 1,96 ].

Remarque : Dans le programme D 11 il est prévu de calculer les résidus ei pour chaque valeur xi de X, puis de les représenter graphiquement pour s’assurer de leur répartition aléatoire autour de leur moyenne nulle. Cela permet, dans certains cas, de mettre en évidence un changement de variable plus adéquat. Mais le programme ne prévoit pas de calculer les résidus réduits, ni de juger de leur normalité.

POUR INFORMATION

L'astronome belge A QUETELET (1796-1874) s'est intéressé à la distribution Normale des variables aléatoires Yi. Un peu plus tard, Sir F GALTON (1822-1911) étudia la stature des enfants par rapport à la stature de leurs parents. Le tableau de correspondance ci-dessous met en évidence cette distribution Normale des Yi (et également la distribution normale des variables aléatoires Xi...). Pour une stature donnée des parents, la stature des enfants est visiblement gaussienne.

(22)

ENFA - Bulletin du GRES n°6 – mars 1998 page 21 Contact : Conf PY-MATH@educagri.fr

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

1 2 3 4 5 6 7

EXCEL 5

x : quantité de concentré consommé par jour, exprimée en grammes y : gain de poids quotidien, exprimé en grammes

x y 0,0837x - 7,642 résidus 410 22 26,675 -4,675 420 38 27,512 10,488 600 40 42,578 -2,578 720 50 52,622 -2,622 750 48 55,133 -7,133 940 76 71,036 4,964 960 72 72,710 -0,710 1020 80 77,732 2,268

Droite de régression : Y = AX+ B A B 0,0837 -7,642

Formule : DROITEREG(y;x) Tableau de résultats renvoyés par la fonction statistique DROITEREG(y ;x ) programmée sous forme matricielle.

1°) Sélectionner le groupe de cellules L16C5:L16C6 correspondant aux résultats à calculer

2°) Programmer la fonction DROITEREG en précisant uniquement les deux premiers arguments y ; x où x et y désignent respectivement les blocs de cellules L6C2:L13C2 et L6C3:L13C3. Après avoir cliqué sur FIN,

appuyer simultanément sur les trois touches CTRL Maj Entrée.

La formule est alors encadrée par des accolades.

Coefficient de corrélation 0,96

Formule : COEFFICIENT.CORRELATION(x;y)

Nuage de points

0 40 80

300 600 900

x

y Graphique des résidus

-8 -4 0 4 8 12

300 1100

x

(23)

CONFORMITE D’UNE MOYENNE, D’UNE PROPORTION

Filière B.T.S.A. - Module D11 :

Option I.A.A. et Options Productions (Productions animales, Productions aquacoles, Productions horticoles, Gestion forestière, Technologies végétales, Viticulture-Œnologie), Options T.C. et G.P.N. (seulement conformité d’une proportion).

I. Exemple introductif :

La variabilité du processus de fabrication d’un produit donné (par exemple : fabrication de cylindres en acier de diamètre moyen 250 mm prévus pour le montage de canalisations, conditionnement d’un fromage en boîtes de 250 grammes, ...) est telle que, malgré les entretiens dont les machines assurant cette fabrication font l’objet, la mesure du caractère X étudié (par exemple : diamètre d’un cylindre en acier, masse d’une boîte de fromage, ...) ne peut être considérée comme une constante fixée à une norme de fabrication μ00 = 250 pour les deux exemples évoqués).

La recherche de la maîtrise de la fabrication conduit à supposer que le caractère X est une variable aléatoire. Une fois cette hypothèse faite, plusieurs questions se posent. Par exemple, peut-on préciser la loi de probabilité de X ? En supposant que cette loi soit une loi normale, l’espérance mathématique de X est-elle égale à μ0 ?

Des contrôles, effectués sur la base d’échantillons aléatoires prélevés dans la fabrication, peuvent conduire à des résultats moyens différents de μ0. Cela peut amener le responsable de cette fabrication à s’interroger et à formuler l’une des hypothèses suivantes :

"la moyenne de la fabrication est différente de μ0",

"la moyenne de la fabrication est inférieure à μ0",

"la moyenne de la fabrication est supérieure à μ0".

La maîtrise de la fabrication correspond à l’hypothèse, notée H0 : "la moyenne de la fabrication est égale à μ0".

Rechercher la maîtrise de cette fabrication c’est tester la validité de cette hypothèse H0 selon une procédure qui permet d’aboutir, en fonction d’une règle de décision, au rejet ou au non rejet de cette hypothèse. Cette procédure s’appelle test d’hypothèse.

Cette règle de décision, établie sous l’hypothèse H0, dépend entre autres, de la distribution d’échantillonnage associée au paramètre étudié (par exemple : la moyenne de la fabrication) et du seuil de signification du test (ou risque de première espèce), c’est-à-dire de la probabilité de rejeter l’hypothèse H0 alors qu’elle est vraie.

II. A travers la littérature

Voici quelques extraits d’ouvrages sur la notion de test :

" ... Le test de conformité d’une moyenne a pour but de vérifier si la moyenne μ d’une population est ou n’est pas égale à une valeur donnée μ0. L’hypothèse nulle est donc H0 : μ

= μ0 et on rejette évidemment cette hypothèse lorsque la moyenne observée x est trop différente de la valeur théorique μ0 .

Le test unilatéral de l’hypothèse nulle peut être également réalisé en envisageant les seules

(24)

ENFA - Bulletin du GRES n°6 – mars 1998 page 23 Contact : Conf PY-MATH@educagri.fr

Van der WAERDEN dans son ouvrage " statistique mathématique ", Dunod, page 260, précise : " ... Tous les tests reposent sur le fait que l’hypothèse H0 est rejetée dès que le point d’observation appartient à un domaine critique donné appelé domaine de rejet. Ce domaine est défini de telle sorte que lorsque l’hypothèse H0 est vraie il n’a qu’une probabilité faible donnée à l’avance, 0,05 ou 0,01. Demandons-nous alors comment est choisi le domaine de rejet. "

Paul JAFFARD dans son ouvrage " initiation aux méthodes de la statistique et du calcul des probabilités ", Masson, 2ème édition 1986, p.178, précise : " ... Définir un test c’est donc se donner le modèle statistique et la région de rejet ...".

C’est ce point de vue qu’il est peut être commode de retenir dans les énoncés des exercices que nous proposons à nos étudiants.

III. Mise en œuvre d’un test de conformité :

Dans la réalisation d’un test d’hypothèse, l’hypothèse que l’on teste est désignée par H0. L’hypothèse alternative, notée H1, est l’hypothèse qui sera acceptée si la règle de décision conduit à rejeter l’hypothèse H0. (voir pages 166-168 de l’ouvrage "Statistique, Dictionnaire encyclopédique" de Yadolah Dogde, Dunod, 1993).

La démarche à suivre pour mettre en œuvre un test d’hypothèse, à partir d’un échantillon aléatoire simple, comprend généralement les étapes suivantes :

Références

Documents relatifs

et suffisantes pour les déviations modérées par rapport aux ensembles fermés des sommes de variables aléatoires vectorielles indépendantes de..

[r]

• Le troisième quartile Q 3 est la plus petite valeur pour laquelle on atteint ou dépasse 75% ; Exemple Imaginons que l’on ait le tableau statistique suivant :.. Valeurs 3 5 6 8 11

Définition Le premier quartile est la plus petite valeur du caractère notée Q 1 qui fait atteindre ou dépasser le quart des effectifs cummulés croissants.. Le troisième quartile est

Définition Le premier quartile est la plus petite valeur du caractère notée Q 1 qui fait atteindre ou dépasser le quart des effectifs cumulés croissants. Le troisième quartile est

Dans l’exemple 5, l’espérance mathématique vaut −0,5 ce qui signifie qu’en jouant un grand nombre de fois à ce jeu, la moyenne de gain est de −0,50 € par partie jouée

On considère l’expérience aléatoire suivante : un joueur lance un dé cubique équilibré : si le résultat est un nombre impair, il gagne, en euros, le triple du numéro

2- Sachant que la consommation journalière moyenne observée dans l’échantillon est de 12 cigarettes, donner un intervalle de con…ance bilatéral à 90% pour m:?. 3- Quelle est