• Aucun résultat trouvé

1.4 Modélisation épidémiologique et génétique des maladies infectieuses

1.4.2 Analyse des performances du modèle et calibration pour coller à la réalité

1.4.2.2 Analyse de sensibilité

L’analyse de sensibilité permet de déterminer comment la variabilité des sorties du modèle peut être attribuée à différentes sources de variation de ses paramètres d’entrée ([91]). Elle peut ainsi avoir divers objectifs :

• Identifier les paramètres d’entrée qui contribuent le plus à une sortie d’intérêt du modèle. Par conséquent, cela permet de prioriser les paramètres à estimer (cf partie 1.4.2.3) plu- tôt que d’estimer tous les paramètres incertains afin de gagner un temps de simulation considérable (objectif le plus courant).

• Détecter et quantifier des effets d’interactions entre les paramètres d’entrée. • Déterminer de possibles simplifications du modèle.

On distingue deux types d’analyse de sensibilité, l’analyse de sensibilité locale et l’analyse de sensibilité globale ([263]).

L’analyse de sensibilité locale se concentre sur l’impact local d’un paramètre incertain sur les sorties du modèle en calculant les dérivées partielles des sorties par rapport aux facteurs d’entrée. Cette méthode permet d’étudier à quelle vitesse les sorties évoluent localement face à des petites variations des paramètres d’entrée ; mais elle n’est pas liée à leur domaine d’in- certitude. Les dérivées peuvent être calculées analytiquement mais dans la plupart des cas, les modèles étant trop complexes, elles sont calculées numériquement. Cette analyse est souvent utilisée lorqu’on étudie un modèle autour d’un point de fonctionnement nominal.

Analyse de sensibilité globale

Contrairement, à l’analyse de sensibilité locale, l’analyse de sensibilité globale prend en compte le domaine entier d’incertitude de chaque facteur incertain pour étudier la variabilité des sorties. La méthodologie de l’analyse de sensibilité globale reprend les trois premières étapes de l’analyse d’incertitude (cf partie 1.4.2.1, avec potentiellement un échantillonnage particulier des paramètres incertains à l’étape 2), auxquelles s’ajoute une nouvelle étape consistant à cal- culer les indices de sensibilité. Pour cela, il existe plusieurs méthodes :

Méthode de Morris : cette méthode se caractérise au départ par une stratégie d’échan- tillonnage spécifique (étape 2 de la partie 1.4.2.1) consistant à discrétiser la plage de variation de chaque paramètre en plusieurs niveaux équirépartis. La méthode la plus intuitive est de faire varier un seul facteur incertain à la fois (les autres étant fixés à leur valeur nominale). Cette idée est exploitée par Morris ([225]). Supposant zmin(k) et zmax(k) les limites inférieures et supérieures du k`emefacteur incertain, la méthode de Morris consiste à tirer une série de jeux de facteurs incertains Zi= (z1i, . . . , zk−1i, zki+ ∆, zk+1i, . . . , zKi), i = 1. . . N en rajoutant un saut ∆ au keme` facteur incertain, et à calculer les effets élémentaires dk(Zi) de la manière suivante :

dk(Zi) =

f (z1i, . . . , zk−1i, zki+ ∆, zk+1i, . . . , zKi) − f (z1i, . . . , zk−1i, zki, zk+1i, . . . , zKi) ∆

La distribution de ces effets élémentaires dk(Zi) du k`eme facteur est ensuite caractérisée par la moyenne des valeurs absolues des écarts µk et leur variance σk2 :

µk= PN i=1|dk(Zi)| N σk2 = PN i=1  dk(Zi) −N1 PNi=1dk(Zi) 2 N

Une grande moyenne µk indique un facteur ayant un effet important sur la sortie d’intérêt et une grande variance σk2 indique soit un effet en interaction avec d’autres facteurs soit un effet non-linéaire. Pour utiliser cette méthode, il faut définir le nombre de niveaux pour discrétiser la plage de variation de chaque paramètre zkentre zmin(k) et zmax(k), la valeur du saut ∆ sur cette

grille et le nombre de répétitions N de la procédure entière. Cette méthode est généralement utilisée pour des modèles complexes nécessitant un temps de simulation conséquent car l’espace d’incertitude est discrétisé en quelques points.

ANOVA : cette méthode se base sur des facteurs discrets z1, . . . , zK (et donc un échan- tillonnage discret selon les niveaux de chaque facteur) et consiste à réaliser une analyse de variance de f (Zi) versus z1, . . . , zK. Celle-ci est basée sur la décomposition de la variabilité de la sortie d’intérêt entre les différentes contributions de chaque facteur incertain et de leurs interactions entre eux :

V ar[f (Z)] = V z1+ ... + V zK+ V z1z2+ ... + V zK−1zK (1.1)

où V ar[f (Z)] est la variance totale de la sortie d’intérêt, les V zk sont les effets principaux des facteurs incertains et les V zkzj sont les effets d’interactions. On peut en déduire les indices de sensibilité suivants :

• indices de sensibilité des effets principaux : S1 = V z1

V ar[f (Z)] • indices de sensibilité des effets d’interaction : S12= V ar[f (Z)]V z1z2

• indices de sensibilité totaux : T S1 = V z1+V zV ar[f (Z)]1z2+...+V z1zK = S1+ S12+ ... + S1K

Un indice de sensibilité total proche de 1 indique un facteur qui a un fort effet sur la variabilité de la sortie d’intérêt.

Régression/Corrélation : Comme pour l’analyse d’incertitude on génère aléatoirement

N valeurs des facteurs d’entrée Zi = (z1i, ..., zki, ..., zKi), i = 1, ..., N et on calcule la sortie du modèle pour chaque scénario f (Zi), i = 1, ..., N . Cette génération aléatoire des facteurs d’entrées peut se faire par un échantillonage de Monte Carlo ([149]), ou par un échantillonage par hypercubes latins (Latin Hypercube Sampling, [145]) qui assure une meilleure couverture de l’intervalle d’incertitude (plus uniforme), ou bien par un échantillonnage par discrépances ([?]). Puis, pour remplacer la quatrième étape de l’analyse d’incertitude, plusieurs types de coefficients de corrélation peuvent être calculés. Le coefficient PEAR (Pearson product moment correlation coefficient, [311]) entre zk et f (Z) est le plus couramment utilisé :

rf (Z),zk =

cov(f (Z), zk) σf (Z)σzk

où σf (Z) et σzk sont les écarts-types respectifs de la sortie du modèle évalué pour chaque échan-

tillon Z1, . . . , ZN et des valeurs échantillonnées du paramètre zk.

Une alternative possible dans le cas de relation fortement non-linéaire entre zk et f (Z) est le coefficient de Spearman ([16]) qui est calculé sur le rang de f (Z) et zk.

Cependant ces deux coefficients de corrélation ne prennent pas en compte un possible effet d’autres facteurs que zk. Le coefficient de corrélation partiel (Partial Correlation Coefficient, PCC, [314]) mesure l’association entre zk et f (Z) après élimination des possibles effets des autres facteurs incertains.

Les modèles de régression permettent d’étudier conjointement l’influence de tous les facteurs incertains. Considérons le modèle de régression avec seulement des effets du 1er ordre :

f (Zi) = b0+

K

X

k=1

bkzki+ ki

où les bk sont les coefficients de régression à estimer par moindres carrés et ki est l’erreur associée au modèle. Les coefficients de régression estimés ˆbk sont donc les mesures de sensibilité associées au facteur zk, et les coefficients de régression standardisés (Standardized Regression Coefficients, SRC, [47]) sont définis par ˆbk

szk

sf (Z). Ces modèles de régression peuvent bien évi-

dement être améliorés en intégrant des effets d’interactions et/ou des effets quadratiques ou non-linéaires. Les techniques de sélection de variables (ex : stepwise regression) permettent de ne garder que les facteurs incertains avec un effet significatif.

Sobol et FAST : Dans les cas précédents (plans expérimentaux suivi d’une anova ou d’une régression), l’analyse de sensibilité est basée sur une approximation des sorties avec un modèle plus simple. L’objectif ici est de décomposer la variance de la sortie V ar[f (Z)] globalement, sans passer par un modèle plus simple ([275, 276]). Contrairement à l’analyse de variance, les facteurs incertains (uniquement quantitatifs) sont maintenant supposés varier uniformément sur un intervalle incertain [0, 1] sans perte de généralité. Sur la base de la décomposition de Hoeffding-Sobol de la fonction f , V ar[f (Z)] est décomposée de manière analogue à l’anova (équation 1.1) mais représente maintenant la variabilité de f (Z) par rapport à l’incertitude générale des facteurs d’entrée. Ceci est plus adéquat pour prendre en compte des effets irréguliers et non-linéaires. Les indices de sensibilité se calculent de la même manière que pour l’anova.

Le test de sensibilité d’amplitude de Fourier (Fourier amplitude sensitivity test, FAST, [209, 55]) est une autre méthode pour calculer les indices de sensibilité basés sur la variance. Tous les facteurs incertains sont supposés quantitatifs et variant sur [0, 1]. Plutôt que de générer aléatoirement les paramètres sur leurs intervalles d’incertitude comme précédemment (pour des méthodes de régression/corrélation et Sobol), la méthode FAST sélectionne systématiquement les facteurs d’entrée le long de trajectoires efficaces (caractérisées par des fréquences ω que l’on peut définir selon les règles de Cukier [72]). Ensuite, les indices sont calculés par décomposition spectrale du signal.