• Aucun résultat trouvé

Modèles de Markov

2.4 Méthodes de mesures de pertinence de modèles

2.4.5 Méthodes statistiques

Kleijnen [103] disait avec humour : « si la statistique mathématique est utilisée, les statis-tiques appropriées doivent être utilisées ! ». Selon Easterling et al. [62], l’objectif fondamental de l’analyse des données statistiques est d’extraire et de transmettre « ce que les données ont à dire au sujet de questions diverses ». Dans le cadre de la validation de modèle de simulation, Sargent [146] fait la distinction entre trois types de modèles différents :

– aucune donnée réelle : utilisation de la théorie statistique sur la conception de plan d’expériences (voir § 2.3.2, p. 32) ;

– données d’entrée uniquement : utilisation de tests statistiques d’hypothèses ;

– données d’entrée et de sortie : réalisation d’une analyse de sensibilité (voir § 2.3, p. 30).

Dans notre étude, nous nous situons dans le deuxième cas. Nous étudions uniquement les données d’entrée. Les données de sortie que nous ne connaissons pas, correspondent aux états

cachés du MMC.

Méthodes de Monte-Carlo

Ces méthodes permettent de calculer une quantité inconnue en utilisant une suite de nombres aléatoires. Son intérêt est la convergence plus rapide vers la solution qu’une ex-ploration dit « systématique ». Elles permettent de quantifier des variables en utilisant des outils statistiques. Selon Pardoux [126], cette méthode consiste dans un premier temps à mettre sous la forme d’une espérance, la quantité que l’on cherche à calculer. La deuxième étape consiste à faire une simulation de la variable aléatoire et à calculer E(X), où X est une variable aléatoire. Pour calculer E(X), il faut savoir simuler des variables aléatoires in-dépendantes X1, . . . , Xn, ayant toutes la loi de X. Pour finir, il faut approcher la valeur de E(X)par :

E(X)≈ 1

n(X1 +. . .+Xn). (2.29)

Le théorème de la loi forte des grands nombres permet de justifier la convergence de la méthode et le théorème de la limite centrale précise la vitesse de convergence. Pour plus de détails, le lecteur pourra se référer à la « loi forte des grands nombres, théorème de la limite centrale et méthode de Monte-Carlo » [126].

Test de Kolmogorov-Smirnov

Ce test permet de comparer les distributions de deux échantillons [60], [181], [182], [91]

et [125]. C’est un test non paramétrique. Il consiste à comparer la distribution des fréquences d’une variable observée avec la distribution théorique que cette variable aurait si elle était distribuée normalement. On cherche alors l’écart entre la distribution théorique et la distri-bution observée. On veut tester l’hypothèse nulle H0 : « il n’y a pas de différence entre les deux échantillons ». Ce test repose sur le fait que si les fonctions de répartition théoriques sont égales, les différences entre les fonctions de répartition empiriques sont faibles.

Pour le lecteur curieux, la preuve du théorème de Kolmogorov-Smirnov est décrite dans [17].

La fonction de répartition empirique d’un échantillon X1, . . . , Xn est définie par (2.30) :

Fn(x) = 1

Avec l’hypothèse nulle H0 : les deux échantillons suivent la même loi.

La distance de Kolmogorov-Smirnov est définie en (2.31) : Dn = sup

x |F1n(x)−F2n(x)|. (2.31)

Nous utilisons ce test afin d’évaluer la différence entre la fonction de répartition empirique étudiée et les lois de distributions testées.

Test d’Aspin-Welch

Un autre test d’adéquation qui prends en compte les moyennes des deux échantillons.

L’hypothèse nulle H0 est la même que celle du test de Kolmogorov-Smirnov (« il n’y a pas de différence entre les deux échantillons »).

Le test d’Aspin-Welch [184], [185], [79] est défini par : t = x1−x2

– xi : moyenne de l’échantillon,

– σ : la variance des deux échantillons, – σi : les variances des échantillons, – ni : la taille de l’échantillon,

– H0 : les deux échantillons suivent la même loi.

avec ν, le nombre de degrés de liberté est estimé en utilisant l’équation de Welch-Satterthwaite :

Nous utilisons également ce test statistique afin d’évaluer la différence entre la fonction de répartition empirique et les lois de distributions.

Bootstrap

LeBootstrapest une méthode issue des recherches de Bradley Efron [63] à la fin des années 70. Son but est d’estimer la précision d’un intervalle de confiance ou d’une distribution.

Elle consiste à re-échantillonner un échantillon de taille limitée, sans rajouter de nouvelles données. Il permet d’obtenir des informations sur les incertitudes statistiques liées à un échantillon de taille limitée.

Théorème 2.4.1 Lorsquen tend vers l’infini, la distribution des valeurs moyennes calculées à partir des échantillons de bootstrap est égale à la distribution des valeurs moyennes obtenues à partir de tous les échantillons avec des n éléments qui peuvent être construits à partir de l’espace complet. Ainsi, la largeur de la distribution donne une évaluation de la qualité de l’échantillon (Bradley Efron [63]).

Pour étudier une population donnée (« espace complet »), leBootstrap(voir théorème 2.4.1), consiste à extraire un premier échantillon représentatif de cette population puis d’échantillon-ner de nouveau ce premier échantillon (sans recours à de nouvelles observations) : c’est le ré-échantillonnage. Cela permet de conserver toujours le même nombre de données. Après un certain nombre d’itérations (formule 2.35), résultant de la méthode de Monte-Carlo (voir

Espace complet

Échantillon initial de n éléments

1 2 3 4 Nb

...

Nb échantillons de Bootstrap

Fig 2.4 – Méthode du Bootstrap.

§ 2.4.5), nous obtenons une statistique finale en faisant la moyenne des différentes statistiques obtenues. Cette méthode permet de remplacer les difficultés mathématiques par d’importants calculs. Le lecteur peut visualiser cette méthode Figure 2.4, p. 52 pour une meilleure com-préhension.

En pratique, un nombre d’itérations minimum est nécessaire pour l’estimation des variances ou des intervalles de confiance de statistique des paramètres du modèle.

– Nb ≃1000 : pour estimer l’erreur-standard,

– Nb ≃5000 : pour l’évaluation d’intervalles de confiance.

Nombre maximal d’itérations pour un n-échantillon : Nmax= (2n−1)!

n!(n−1)!. (2.35)

2.4.6 Comparaison de deux modèles par corrélation linéaire de Bravais-Pearson

Contrairement à un test de statistiques comme celui de Kolmogorov-Smirnov, ce coef-ficient de corrélation nous permettra de comparer les distributions des données empiriques avec celles issues de la simulation. Nous voulons ici comparer les distributions des symboles et essayer de se rapprocher le plus possible de la réalité. Le but est de comparer deux courbes entre elles, afin de regarder la différence entre chacun des points. Pour cela, nous utilisons le coefficient de corrélation linéaire de Bravais-Pearson [6]. Pour deux séries de données de même tailleX(x1, . . . , xn)etY(y1, . . . , yn), le coefficient de corrélation linéaire liant ces deux séries est défini par :

ρx,y =

Les deux courbes ne sont pas corrélées si ρx,y est proche de 0. Les deux courbes sont d’autant plus corrélées entre elles que ρx,y est proche de -1 ou de 1.

La covariance entre x et y est définie par :

σ2xy = 1 N

XN i=1

(xi−x)¯ ·(yi−y).¯ (2.37) Cette technique de comparaison nous permettra de quantifier les différences entre les distributions empiriques et simulées. Cela pourra nous donner, dans un deuxième temps, d’éventuelles améliorations à apporter à notre modèle de synthèse.