• Aucun résultat trouvé

Chapitre II : État de l’art

7.3. Éléments d’analyse statistique

Le but de ce qu’on appelle l’analyse statistique consiste à estimer certains paramètres à partir d’un ensemble de données empiriques. Les paramètres que nous estimons ont une certaine valeur qui nous échappe a priori, ou bien nous voulons vérifier l’adhésion à la réalité d’une inférence théorique au sujet de cette valeur. Nous sommes habitués, par exemple, à vouloir connaître et interpréter la valeur moyenne de ces données, ou encore la variance et l’écart type qu’on observe à même ces données. Ces nombres constituent ce qu’on appelle des estimateurs ponctuels des paramètres qui nous intéressent. Cependant, du point de vue théorique, les données empiriques qui nous sont données sont des valeurs teintées de hasard : si on peut répéter l’expérience qui à engendré les observations, il est fort probable que nous obtenions des valeurs légèrement différentes. Aussi les estimateurs ponctuels changeraient de valeur en fonction de telles autres données.

Ainsi, nos estimations sont des réalisations des variables aléatoires estimateurs. Techniquement, on aimerait que dans la plupart des cas notre estimation ponctuelle tombe très prés de la valeur réelle du paramètre. Si notre but est de se donner une idée du paramètre réel, une valeur de l’estimateur ponctuel perd un peu de son importance en soi. Aussi on peut plutôt s’intéresser à quoi s’attendre du paramètre qu’on estime. En particulier, on peut vouloir déterminer la valeur minimale et la valeur maximale du paramètre à laquelle on peut s’attendre dans une certaine proportion des cas, par exemple dans 95% des cas. Ces valeurs minimales et maximales sont déterminées à partir des observations et définissent ce qu’on appelle un intervalle de confiance.

7.3.1. Analyse statistique des résultats d’une simulation terminante

Soit un système simulé par un événement E, dont on répète l’exécution n fois, chaque fois avec un ensemble disjoint de nombre aléatoires et lancé sous les mêmes conditions initiales. Pour commencer, supposons que nous ne nous intéressons qu’à une mesure de la perfermance du système. Supposons par ailleurs que cette mesure soit échantillonnée pour chacune des instances d’un certain processus linéaire. Le résultat d’une réplication du programme de simulation sera donc un processus stochastique fini (simulation terminante). Considérons m la longueur du plus petit des n processus stochastiques engendrés. Les résultats de la simulation

peuvent ainsi être comparés dans le cadre de la matrice Y = (Yij) où 0 1 i 1 n et 0 1 j 1 m.

Évidement les variables aléatoires d’un même processus stochastique (sur une même ligne) ne sont pas nécessairement indépendantes. Il suffit de considérer l’exemple d’une file d’attente

Chapitre II : Section 7 : Analyse des résultats

d’un acteur dans une file. Ce paramètre dépend nécessairement du temps d’attente de tous les acteurs qui précèdent l’acteur j au moment de son arrivée dans la file. Cependant, il est possible de réaliser chacune des réplications de la simulation en utilisant des nombres

aléatoires distincts et indépendants. Si Yij et Ykj (sur une même colonne) sont déterminés à

partir d’événements et de calculs qui utilisent des nombres aléatoires U(0,1) indépendants,

alors Yij et Ykj sont eux-mêmes indépendants. L’indépendance mutuelle des variables sur une

même colonne ouvre la porte aux techniques d’analyse statistique standard.

7.3.2. Principe de l’estimation

L’estimation d’un paramètre résumant les valeurs d’un caractère dans une population, consiste à donner pour la valeur 3 prise par ce paramètre pour la population, une valeur

approchée tn, calculée à partir d’un échantillon, avec autant de précision que possible. On

utilise pour cela une statistique T appropriée, en retenant pour 3 la valeur tn = T(x), où x est

l’observation de l’échantillon X .

Par exemple, pour estimer une moyenne 4 ou une proportion p, on utiliseraX . Pour estimer

une dispersion, on peut penser à la statistique V (qui n’est pas la meilleure !). Ces variables prennent alors le nom d’estimateurs.

Pour une estimation ponctuelle, on se contente des valeurs observées sur l’échantillon x valeur deX , mn ou f n suivant les cas pour estimer les valeurs théoriques µ (moyenne d’un caractère

quantitatif) ou p (fréquence d’un caractère qualitatif) d’une part, sn2 valeur observée de V pour

estimer la dispersion 52 du caractère dans la population d’autre part.

Le contrôle de la marge d’erreur renvoie à une estimation par intervalle. Par exemple, comment majorer la probabilité de se tromper en donnant pour une moyenne inconnue µ un encadrement issu de la valeur observée x sur l’échantillon :

α ε υ < ≥ − − ) 1 ( X P

Un niveau de confiance 1 – 1 étant donné (0,9 ou 0,95 suivant les degrés de fiabilité que l’on

souhaite), si l’on sait calculer cette probabilité, on peut obtenir une valeur minimale pour 6 (le demi écartement de la fourchette), telle qu’avec une probabilité meilleure que 1 - 1 on puisse affirmer que µ est dans l’intervalle

]

X −ε;X

[

.

La détermination de 6 dans diverses situations concrètes est le problème du calcul des intervalles de confiance.

7.3.2.1. Estimation par intervalle de confiance

On veut estimer la valeur d’un paramètre relatif à un caractère défini sur une population

P. Une estimation ponctuelle à partir d’un échantillon ne renseigne pas sur la précision de

l’approximation de . On voudrait donc obtenir un intervalle aléatoire, pas trop grand, à partir de l’échantillon prélevé, tel que la probabilité qu’il contienne soit acceptable.

Cette probabilité sera appelée niveau de confiance de l’estimation, on la désigne par 1 - 1 Le nombre 1 est le risque que l’on prend de se tromper en affirmant que τ est bien dans

Chapitre II : Section 7 : Analyse des résultats

l’intervalle proposé. Pour préciser cela, prenons un niveau de confiance de 90 %. A chaque échantillon correspond la valeur observée t de l’estimateur T utilisé.

On considère l’intervalle centré en t : ]t -ε ; t + ε [, où est choisi de sorte qu’en moyenne,

pour 9 échantillons sur 10, soit dans ]t -ε ; t + ε [. Autrement dit, on désire trouverε tel

queP(τ∈

]

T−ε;T

[

)≥0,9. On a rencontré cette situation dans le cas où est l’espérance

mathématique de la variable parente. On a vu que l’inégalité de Bienaymé-Tchebychev donne alors une solution, mais celle-ci se révèle peu performante. Pour avoir un bon résultat, le calcul de cette probabilité fait nécessairement intervenir la loi de T.

L’intervalle aléatoire ]T -ε, T + ε [ est appelé intervalle de confiance pour de niveau 1 -1.

L’intervalle réel ]t -ε, t + ε [ est l’observation de l’intervalle de confiance ou la fourchette.

Documents relatifs