• Aucun résultat trouvé

Objectifs :

Présenter sur un graphique les caractéristiques essentielles de l'échantillon.

III-1) HISTOGRAMME des FREQUENCES EMPIRIQUES:

C'est une idée simple:

on se fixe des classes Ck définies par leurs bornes [ak , ak+1] on compte le nombre de valeurs de l'échantillon dans chaque classe.

Avantages : Facile à comprendre

Défaut : Le nombre de classes et le choix des classes est laissé à l'initiative de l'individu. Si bien que pour un même échantillon, surtout s'il est de taille assez réduite (qq. dizaines d'éléments), les aspects de ces

histogrammes peuvent être assez différents selon le choix effectué.

Les figures 3 ci-contre illustrent cette variabilité de tracés d'un choix à l'autre. C'est pourquoi ce mode de description n'est pas très utilisé surtout si l'échantillon est de taille assez réduite.

Une règle empirique consiste à prendre:

Nc = nombre de classes = 1 + 4/3 Log(N)

(avec N = taille de l'échantillon et le log est Népérien) Exemple : Pour N = 30 , on fera environ 5 classes, pour N = 50 , 6 classes

et pour N = 100 , 7 classes…

Le tracé de l'histogramme, surtout avec un échantillon bien fourni, permet de supputer la forme de la densité de probabilité f(x) (symétrique ou non, uni- ou multimodale etc...) et de choisir un ou des modèles possibles.

Ceux ci seront ensuite testés et validés, mais plutôt sur la fonction de répartition.

*** Complément d'interprétation (sur l'histogramme):

Pour aider à la compréhension, on peut donner une petite analogie "mécanique" à la moyenne: quand on construit l'histogramme, on donne un poids de 1 à chaque individu.

Si on considère l'axe des x comme le bras d'une balance, on peut alors chercher le point pivot de cet axe tel que le moment des forces qui s'exercent à droite et à gauche se compensent. C'est le barycentre, ou encore la moyenne.

On comprend alors que, si on ajoute ne serait-ce qu'un seul point mais très écarté de la distribution, son bras de levier est tel qu'il faut sensiblement déplacer le pivot pour compenser son effet et rétablir l'équilibre.

Figure 4

Par contre, ce point ne modifiera pas beaucoup la médiane, telle que 50% des points sont à gauche et 50% à droite, (mais peu importe leur éloignement sur l'axe...!):

⇒ La médiane est donc plus robuste que la moyenne.

De même on peut penser décrire la dispersion autour de la moyenne comme le font les mécaniciens pour décrire l'inertie à la rotation d'un corps autour d'un axe. Si on prend un axe vertical passant par la

moyenne mx, et que l'on fait tourner l'histogramme autour de cet axe, le moment d'inertie des points d'abscisse xi et de masse 1 sur une droite serait:

( )

2

1

=

n

i

i x

x et on pourrait en prendre la moyenne par individu:

(cf. Théorème de Huyghens: le moment d'inertie d'ordre 2 par rapport à un axe est minimum si cet axe est situé au centre de gravité).

Ici encore, l'adjonction d'un individu éloigné de l'axe augmente sensiblement l'inertie de rotation, et donc la variance empirique (qui sera moins robuste qu'un intervalle interdécile).

Enfin, plus on considère des moments d'ordre élevé, plus un individu "extrême", un horsain, aura de poids dans le calcul de ce moment (d'où une sensibilité croissante des moments à l'échantillonnage quand leur ordre augmente)

On remarquera aussi que des échantillons (ou des populations) plus "étalés" ou dispersés ont évidemment une variance plus grande, et donc qu'il faut "mécaniquement" plus d'énergie pour les mettre en rotation autour de leur axe.

Note:

Ces considérations "mécanistes" n'ont pas pour seul but d'aider les personnes de formation mécanicienne à se raccrocher à des notions connues. Elles seront souvent à la base des raisonnements utilisés en statistique multidimensionnelle (analyse en composantes principales, analyse discriminante, etc...)

Figure 5

III-2) COURBE des FREQUENCES CUMULEES

FONCTION DE REPARTITION EMPIRIQUE Objectifs :

Trouver une représentation graphique assez complète pour décrire l'échantillon.

Cette fois on va chercher :

- à utiliser toute l'information donnée par l'ensemble des valeurs (ce que l'on ne faisait pas quand on regroupait en classes avec l'histogramme des fréquences relatives).

- à anticiper sur les méthodes d'ajustements probabilistes (cf. . Chap. II ) La première idée est de tracer la courbe en escalier :

F*(xi) = Proportion des valeurs de l'échantillon inférieures ou égales à xi

= Fréquence empirique, observée, des valeurs xi inférieures ou égales à xi. =

N

i (où N est la taille de l'échantillon).

Le défaut est que l'on ne donne pas la même importance au minimum qu'au maximum, puisque: F*(Min) =

N

1 et F*(Max) = 1.

D'où l'idée des statisticiens :

- si l'échantillon est tiré d'une loi de probabilité définie par sa fonction de répartition F(x) = Probabilité qu'une valeur X tirée au hasard de la population soit inférieure ou égale à x,

- essayons de tracer à partir de l'échantillon une courbe la plus voisine de F(x) (en général inconnue).

Ceci permettra non seulement une description de l'échantillon mais peut être une aide à la recherche de F(x).

Pour cela classons les n valeurs xi dans l'ordre croissant

d'où un échantillon de N valeurs xi classées.

On montre qu'une bonne estimation assez simple de F(xj) = Pr (X≤xj) est fournie par : F*(xi) =

où a et b ont un optimum qui dépendent de la loi dont sont issus les échantillons…

Il faudrait donc la connaître a priori pour bien choisir la façon de pointer les valeurs observées , alors que l’on fait ce pointé justement pour essayer de déterminer la loi la plus plausible… On fera donc des paris et des compromis…

Exemples: Loi Normale (Gauss) a = 0.375 b = 0.25 (cf. définitions de ces lois dans le chapitre II)

Loi de Gumbel a = 0 b = 1

Nous prendrons souvent: a = 0.5 et b = 0.5 ou a = 0.5 et b = 0 d'où les formules d'estimation de la probabilité empirique

Pr(X≤xi) =

Attention:

Le choix de cette façon d'estimer la probabilité et de la pointer sur un diagramme ("plotting position" en anglais) n'est pas tout à fait neutre et a reçu une grande attention

de la part de certains auteurs (cf. Yevjevitch V. 1972 ou Haan Ch.T. 1977, p. 135 ou, plus récemment, et pour une loi particulière, l’article de Nophadol et Nguyen 1989).

On verra dans l'analyse des valeurs extrêmes que cela a une certaine importance.

_____________

On trace ensuite les points sur un diagramme.

Mais en diagramme arithmétique, où les axes Ox et Oy sont gradués linéairement, les courbes obtenues ont souvent la forme d'un S (sigmoïdes) et il est difficile d'en déduire une forme de loi et de les distinguer. C'est pourquoi on utilise souvent des papiers où l'échelle des F* est distordue (papier de Gauss, papier de Gumbel).

L'intérêt de ces diagrammes fonctionnels, dits de probabilité , - meilleure lecture pour certaines probabilités

(les extrêmes par exemple pour Gumbel)

- tracé plus aisé de certaines lois

(droite pour une loi de Gauss sur papier de Gauss).

Les tableaux et la figure 5 de la page suivante illustrent cette description. Le papier utilisé est un papier de Gauss dont on verra la construction par la suite.

Figure 5

Documents relatifs